课程主页:http://www.inference.org.uk/mackay/itprnn/,http://www.inference.org.uk/itprnn_lectures/

课程视频:https://www.bilibili.com/video/BV14b411G7wn?from=search&seid=1786094286746981315,https://www.youtube.com/watch?v=BCiZc0n6COY&list=PLruBu5BI5n4aFpG32iMbdWoRVAA-Vcso6

课程书籍:https://book.douban.com/subject/1893050/

这次回顾第二讲,第二讲介绍了熵的概念。

备注:笔记参考了中文书籍。

熵和相关函数的定义

结果为$x$的香农信息量定义为

总体$X$的定义为香农信息量的期望

方便起见,也将$H(X)$记作$H(p)$,其中

那么

$X$和$Y$的联合熵为

性质

  1. $H(X)\ge 0$,当且仅当存在$x$,使得$P(x)=1$时等号成立。
  2. $H(X) \le \log \left(\left|\mathscr{B}_{X}\right|\right)$,当且仅当$P(x)=\frac 1 {|\mathscr G_X|}$时等号成立。

1.证明:

当且仅当$P(x)=1$时等号成立。

所以

注意到

所以当且仅当存在$x$,使得$P(x)=1$时等号成立。

2.证明:

利用凸函数的性质可得

当且仅当$P(x)=\frac 1 {|\mathscr H_X|}$时等号成立。

熵的可分解性

特别的,对于$m=1$,我们有

证明:

三者相加即可得到$H(p)$

Gibbs不等式

概率分布$P(x)$和$Q(x)$的相对熵(KL散度)为

相对熵满足Gibbs不等式

当且仅当$P=Q$时取等号。

证明:

利用Jenson不等式,我们有

取$u=\frac {Q(x)}{P(x)}$,概率分布为$P(x)$,那么

凸函数以及Jenson不等式

函数$f$在$(a,b)$上是凸的,如果对所有$x_{1}, x_{2} \in(a, b)$和$0\le \lambda \le 1$,都有

凸函数的图示如下:

Jenson不等式

如果$f$是凸函数,$x$是随机变量,那么